智能论文笔记

HmBlogs: A big general Persian corpus

Hamzeh Motahari Khansari , Mehrnoush Shamsfard

分类：自然语言处理

2021-11-03

本文介绍了Persian的HMBLOGS语料库，作为一种低资源语言。此语料库已根据波斯博客的空间的一段时间内基于大约15岁的近2000万博客帖子编制的，包括超过68亿令牌。可以声称，此语料库目前是最大的波斯语料库，这些语料库是为波斯语而独立制定的。该语料库以原始和预处理的形式呈现，并且基于预处理的语料库，产生了一些单词嵌入模型。通过提供的模型，将HMBlogs与波斯中可用的一些最重要的公司进行比较，结果表明了HMBLOGS语料库的优势。这些评估还提供了语料库，评估数据集，模型生产方法，不同的高参数甚至评估方法的重要性和影响。除了评估语料库及其产生的语言模型之外，该研究还提供了一个语义类比数据集。

translated by 谷歌翻译

Leveraging Haptic Feedback to Improve Data Quality and Quantity for Deep Imitation Learning Models

Catie Cuan , Allison Okamura , Mohi Khansari

分类：机器人

2022-11-06

Learning from demonstration (LfD) is a proven technique to teach robots new skills. Data quality and quantity play a critical role in LfD trained model performance. In this paper we analyze the effect of enhancing an existing teleoperation data collection system with real-time haptic feedback; we observe improvements in the collected data throughput and its quality for model training. Our experiment testbed was a mobile manipulator robot that opened doors with latch handles. Evaluation of teleoperated data collection on eight real world conference room doors found that adding the haptic feedback improved the data throughput by 6%. We additionally used the collected data to train six image-based deep imitation learning models, three with haptic feedback and three without it. These models were used to implement autonomous door-opening with the same type of robot used during data collection. Our results show that a policy from a behavior cloning model trained with haptic data performed on average 11% better than its counterpart with no haptic feedback data, indicating that haptic feedback resulted in collection of a higher quality dataset.

translated by 谷歌翻译

Sample Complexity Bounds for Learning High-dimensional Simplices in Noisy Regimes

Amir Hossein Saberi , Amir Najafi , Seyed Abolfazl Motahari , Babak H. Khalaj

分类： (统计)机器学习 | 机器学习

2022-09-09

在本文中，我们提出了一个样本复杂性，以从嘈杂的样本中学习单纯形。给出了$ n $的数据集，其中包括i.i.d.样品从$ \ mathbb {r}^k $中的未知任意单纯形上的均匀分布中得出，其中假定样品被任意幅度的加性高斯噪声损坏。我们提出了一种策略，该策略可以输出一个单纯概率，总变化距离为$ \ epsilon + o \ left（\ mathrm {snr}^{ - 1} \ right）$从true Simplex中，对于任何$ \ Epsilon> 0 $。我们证明，要接近True Simplex，就足以拥有$ n \ ge \ tilde {o} \ left（k^2/\ epsilon^2 \ right）$ samples。在这里，SNR代表信噪比，可以看作是单纯形直径与噪声的标准偏差的比率。我们的证明是基于样品压缩技术的最新进步，这些进步已经显示出在高维高斯混合模型中的密度估计的紧密范围方面的承诺。

translated by 谷歌翻译

Isoform Function Prediction Using Deep Neural Network

Sara Ghazanfari , Ali Rasteh , Seyed Abolfazl Motahari , Mahdieh Soleymani Baghshah

分类：人工智能 | 机器学习

2022-08-05

同工型是从同一基因位点产生的MRNA，称为替代剪接。研究表明，超过95％的人类多外XEX基因经历了替代剪接。尽管mRNA序列的变化很少，但它们可能会对细胞功能和调节产生系统的影响。广泛报道了基因的同工型具有不同甚至对比的功能。大多数研究表明，替代剪接在人类健康和疾病中起着重要作用。尽管具有广泛的基因功能研究，但关于同工型功能的信息很少。最近，已经提出了一些基于多个实例学习的计算方法，用于使用基因函数和基因表达谱预测同工型函数。但是，由于缺乏标记的培训数据，他们的性能并不理想。另外，概率模型（例如条件随机场（CRF））已被用于建模同工型之间的关系。该项目使用所有数据和有价值的信息，例如同工型序列，表达曲线和基因本体论图，并提出了基于深神经网络的综合模型。 Uniprot基因本体论（GO）数据库用作基因函数的标准参考。 NCBI REFSEQ数据库用于提取基因和同工型序列，NCBI SRA数据库用于表达式配置文件数据。曲线下（ROC AUC）下的接收器操作特征区域和曲线下的Precision-Recall等指标用于测量预测准确性。

translated by 谷歌翻译

AW-Opt: Learning Robotic Skills with Imitation and Reinforcement at Scale

Yao Lu , Karol Hausman , Yevgen Chebotar , Mengyuan Yan , Eric Jang , Alexander Herzog , Ted Xiao , Alex Irpan , Mohi Khansari , Dmitry Kalashnikov

分类：机器人

2021-11-09

通过模仿学习（IL）使用用户提供的演示，或者通过使用大量的自主收集的体验来学习机器人技能。方法具有互补的经验和缺点：RL可以达到高度的性能，但需要缺陷，但是需要缺乏要求，但是需要达到高水平的性能，但需要达到高度的性能这可能非常耗时和不安全; IL不要求Xploration，但只学习与所提供的示范一样好的技能。一种方法将两种方法的优势结合在一起？一系列的方法旨在解决这个问题，提出了整合IL和RL的元素的各种技术。然而，扩大了这种方法，这些方法复杂的机器人技能，整合了不同的离线数据，概括到现实世界的情景仍然存在重大挑战。在本文中，USAIM是测试先前IL + RL算法的可扩展性，并设计了一种系统的详细实验实验，这些实验结合了现有的组件，其具有效果有效和可扩展的方式。为此，我们展示了一系列关于了解每个设计决定的影响的一系列实验，以便开发可以利用示范和异构的先前数据在一系列现实世界和现实的模拟问题上获得最佳表现的批准方法。我们通过致电Wap-opt的完整方法将优势加权回归[1,2]和QT-opt [3]结合在一起，提供了一个UnifiedAgveach，用于集成机器人操作的演示和离线数据。请参阅HTTPS： //awopt.github.io有关更多详细信息。

translated by 谷歌翻译

Distributed Sparse Feature Selection in Communication-Restricted Networks

Hanie Barghi , Amir Najafi , Seyed Abolfazl Motahari

分类： (统计)机器学习 | 机器学习

2021-11-02

本文旨在提出和理论上分析一种新的分布式方案，用于稀疏线性回归和特征选择。主要目标是根据来自未知稀疏线性模型的嘈杂观测来了解高维数据集的几个因果特征。但是，在$ \ mathbb {r} ^ p $中包含$ n $ data样本的假定培训集已经在大型网络上分发，以通过极低的带宽链路连接的$ n $客户端。此外，我们考虑渐近配置$ 1 \ ll n \ ll n \ ll p $。为了从整个数据集推断出原因尺寸，我们提出了一种简单但有效的网络中的信息共享方法。在这方面，我们理论上表明，可以可靠地恢复真正的因果特征，其中o的$ o o \ lex（n \ log p \ light）$跨越网络。与将所有样本传输到单个节点（集中式场景）的微小情况相比，这产生了显着降低的通信成本，该沟通成本是需要$ o \ lef（np \右）$传输。诸如ADMM的更复杂的方案仍然具有$ o ox的通信复杂性（NP \右）$。令人惊讶的是，我们的样本复杂性被证明是与每个节点中固定性能测量的最佳集中方法的相同（最多常数因素），而NA \“{i} ve分散技术的最佳集中方法以$线性地增长N $。本文的理论担保是基于Javanmard等人的最近脱叠套索的分析框架。（2019），并由几个在合成和现实世界数据集上进行的几台计算机实验支持。

translated by 谷歌翻译